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摘 要 : [目的 /意义 ] 近 年 来 ,我 国 虽 已 出 台 政 策 对 科学 数据 的 管理 共享 与 利用 给 出 了 明确 的 引导 与 规范 ,但 现 有 主流 的 
数据 管理 平台 架构 侧重 在 对 数据 的 科学 管理 ,数据 的 共享 利用 效率 不 高 ,本 研究 在 系统 拓展 现 有 平台 的 数据 管理 
功能 基础 上 ,聚焦 解决 科学 数据 的 共享 利用 难题 。[ 方 法 /过 程 ] 在 广泛 调研 与 文献 梳理 的 基础 上 ,首先 厘清 人 文 
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社 科研 究 数据 管理 平台 建设 的 必要 性 和 困境 ,其 次 系统 设计 与 阐释 了 全 生命 周期 视 域 下 人 文 社 科 研究 数据 管理 
平台 建设 的 核心 功能 与 特点 ,进而 结合 平台 实例 ,详细 描绘 了 核心 功能 的 关键 技术 实现 。[ 结果 /结论 ] 以 开放 互 
联 为 基础 、 以 开发 利用 为 核心 以 自助 分 析 为 特色 ,最 终 建立 起 面向 全 生命 周期 的 研究 数据 管理 平台 基础 框架 ,并 
据 此 设计 实现 了 一 个 全 生命 周期 的 人 文 社 科研 究 数 据 管 理 平台 ,可 为 相关 实践 与 研究 提供 特色 案例 与 参考 。 


yp, 
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人 科学 数据 是 国家 科技 创新 和 经 济 社会 发 展 的 重要 
基 侧 性 战略 资源 ,在 当今 大 数据 时 代 , 科 技 创新 活动 越 
来 越 依 赖 于 对 科学 数据 的 分 析 挖 掘 和 综合 利用 。 为 
蓉 我 国 出 台 了 《科学 数据 管理 办 法 》( 国 办 发 5 2018 
] 对 号 ) ,强调 要 “加 强 和 规范 科学 数据 管理 ,要 适应 
大 数据 发 展 趋势 ,积极 推进 科学 数据 资源 开发 利用 和 
开启 共享 ”"。 不 过 研究 数据 共享 与 重用 的 价值 虽 在 学 
界 已 成 共识 ,但 在 实践 上 不 尽 如 人 意 m ,同时 作为 一 类 
基础 性 资源 ,我 国人 文 社 科 数 据 资源 建设 相对 滞后 且 
多 由 国家 重大 科研 项 目 驱动 ,并 因 * 数 据 服务 平台 功能 
单一 .检索 效率 低下 .不 支持 机 器 读 取 和 原始 下 载 、 系 
统 平台 整体 上 可 用 性 较 差 ”等 现实 困境 ,而 难以 满足 项 
目 之 外 的 用 户 需要 号 。 目 前 ,针对 人 文 社 科研 究 数据 
的 科学 管理 与 开发 利用 活动 ,也 尤其 欠缺 。 

随 着 学 术 研 究 的 深入 和 跨 学 科 科研 方向 的 拓展 ， 
不 同学 科 的 科研 人 员 将 自身 的 科研 经 验 .拥有 的 知识 
和 各 种 研究 数据 进行 共享 ,可 为 其 他 科研 人 员 的 研究 


提供 更 多 的 思路 和 灵感 ,进而 提高 科研 人 员 借 助 跨 学 
科 和 跨 领域 知识 进行 科学 研究 的 能 力 *  。 为 促进 科研 
人 员 数 据 重用 ,相关 研究 人 员 已 从 数据 管理 者 .数据 重 
用 考 两 个 视角 展开 了 大 量 研 究 与 实践 ，” ,本 文 基于 数 
据 管理 者 视角 ,遵循 “ 建 好 、 管 好 、 用 好 ”建设 思路 , 进 
一 步 完 善 与 改进 现 有 人 文 社 科 研究 数据 管理 基础 设 
施 , 旨 在 解决 研究 数据 的 共享 利用 难题 。 


1 相关 研究 与 实践 


1.1 研究 数据 管理 

研究 数据 泛 指 科 研 活动 中 原始 的 、 基 础 的 数据 ,能 
够 帮助 提高 科学 的 可 再 利用 性 和 可 信和 度 , 对 它 的 管理 
应 该 是 针对 研究 数据 的 整个 生命 周期 的 管理 ” ,继而 
高 效 开 展 各 类 数据 管理 活动 。 当 前 ,国内 外 研究 人 员 
围绕 科研 人 员 需 求 调查 ”数据 管理 生命 周期 ”、 
数据 管理 服务 "数据 管理 政策 “数据 管理 教 
育 ” “等 主题 ,做 出 了 大 量 研究 与 探索 ,以 美国 、 英 
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国 澳大利亚 为 代表 的 研究 数据 管理 研究 与 实践 活动 
起 步 较 早 ,已 形成 了 与 各 自 国家 科研 文化 背景 相 适应 
的 不 同 发 展 路 径 和 解决 方案 , 且 高 校 图 书馆 的 作用 
和 地 位 愈加 凸显 2 。 而 国内 研究 多 是 介绍 国外 研究 数 
据 管理 研究 与 实验 经 验 ” ,并 在 此 基础 上 开展 系列 实 
践 活动 ,尤其 是 2011 年 后 图 书 情报 学 界 和 图 书馆 行业 
开始 主动 介入 、 跟 踪 和 开展 研究 数据 管理 研究 与 实践 
活动 ,出 现 了 以 中 国 科学 院 “ 科 学 数据 管理 与 共享 云 服 
务 平台 ”武汉 大 学 图 书馆 CALIS 三 期 的 “高 校 科学 数 
据 管理 机 制 及 管理 平台 研究 ”等 为 代表 的 典型 实践 案 
例 。 不 过 ,我 国 的 研究 数据 管理 研究 与 实践 活动 还 处 
于 探索 发 展 阶段 ,良性 的 开放 共享 文化 和 机 制 尚未 形 
成 ,系统 理论 研究 和 过 程 评估 方法 的 全 面 、 整 体 、 启 发 
0 ,相关 研究 坡 需 加 强 。 


期 衰变 规律 ,其 生命 周期 与 科学 研究 活动 联系 紧密 , 且 
受到 研究 方法 、 工 具 、 手 段 等 的 影响 ,是 研究 如 何在 数 
据 生 命 周 期 各 个 阶段 采用 适当 的 操作 与 策略 对 数据 进 
行 管理 ,其 管理 的 对 象 除了 数据 本 身 ,也 包括 数据 的 生 
产 、 服 务 ,使 用 对 象 和 内 外 部 环境 、 技 术 等 ”, 它 具有 
数据 本 身 的 生命 周期 管理 和 反映 科研 活动 生命 周期 的 
两 重 性 ” 。 
然而 ,尽管 已 有 学 者 基于 科研 活动 生命 周期 探究 
数据 资源 的 整合 路 径 , 如 井 润 田 等 所 聚焦 科研 活动 中 
的 团队 , 剂 析 了 科研 团队 不 同 生 命 周 期 特点 ,在 此 基础 
上 , 贾 玉 文 等 "建立 了 构 入 科研 生命 周期 的 资源 整合 
模型 ,但 目前 主流 常见 的 数据 管理 生命 周期 模型 主 
要 还 是 面向 数据 本 身 ( 见 表 1) 展开 ,相关 研究 实践 活 
动 也 多 在 此 基础 上 开展 ,同时 为 有 效 测 度 .评估 和 持续 


从 研究 数据 生命 周期 管理 改善 研究 数据 管理 的 实践 与 服务 ,构建 有 研究 数据 管 
[Ri 完 数据 不 同 于 信息 息 资源 “价值 老化 ”的 生命 周 理 能 力 成 熟 度 模型 “| ,进行 分 级 测度 。 
O 表 1 几 种 典型 的 研究 数据 管理 生命 周期 模型 
所 生命 周期 模型 要 点 摘录 提出 机 构 / 个 人 (年 ) 
< pec 6 个 阶段 :概念 化 ,创建 和 接收 数据 ,评测 和 选择 数据 ,长 期 保存 和 存储 ,访问 .使 用 和 重用 ， ”英国 数据 管理 中 心 (2004) 
CA I 8 个 阶段 :概念 研究 .数据 采集 ,数据 处 理 ,数据 存档 ,数据 发 布 数据 发 现 . 数 据 分 析 和 数据 ”英国 数据 档案 项 目 联盟 (2014) 
CN 千 用 
@ paaoNF 8 个 动词 :计划 .收集 .保证 .描述 .保存 .发 现 .整合 .分 析 美国 新 墨西哥 大 学 图 书馆 等 (2009) 
A UKDA 6 个 阶段 :数据 创建 .数据 加 工 数据 分 析 .数据 保存 .数据 访问 数据 再 利用 英国 埃 塞 克 斯 大 学 (2007) 
S> ANDS 8 个 动词 :创建 .存储 ,描述 .识别 ,注册 ,发现 .获取 .开发 澳大利亚 国家 数据 服务 (2008) 
NZ 0% 2 个 阶段 :基础 阶段 (提出 计划 ,同行 评议 ,进行 实验 ,数据 处 理 . 分 析 和 解释 ,最 终 报告 研究 ”英国 结构 化 科学 整合 基础 设施 项 目 
成 果 ) 和 理想 化 阶段 (评估 和 质量 控制 ,元 数据 和 上 下 文 信息 的 文件 ,存储 .归档 .保存 和 管 ” (2009) 
ps 理 .知识 产权 ,禁止 和 访问 控制 ) 
.之 oAf 6 个 功能 实体 :数据 收集 .归档 存储 数据 管理 .管理 .保存 规划 和 数据 访问 N. Beagrie 等 (2001) 
-CReseach360 6 个 阶段 :计划 和 设计 .收集 和 获取 .解读 和 分 析 .管理 和 保存 .发 布 和 出 版 .挖掘 和 再 利用 。 英国 巴 斯 大 学 (2013) 
表 1 所 示 的 人 研究 数据 管理 生命 周期 模型 ,主要 描 重用 环节 的 并 不 多 见 。 
述 了 如 何 做 好 数据 的 管理 与 控制 ,其 中 虽然 提 及 到 数 (1) 数 据 管理 计划 工具 。 主 要 是 对 数据 管理 进行 


据 的 重用 与 开发 利用 ,但 并 未 细 化 、 展 开 , 且 多 是 面向 
机 构 ( 管 理 者 ) 。 WO 
验证 聚合, 挖掘、 再 利用 四 方面 ” , 它 能 够 进一步 促 
进 学 术 新 发 现形 成 学 术 新 生态 等 ,因此 对 数据 管理 生 
命 周期 模型 的 优化 ,有 其 必要 性 
1.3 研究 数据 管理 平台 与 工具 
针对 研究 数据 管理 的 服务 供给 ,需要 依赖 平台 和 
工具 ,并 据 此 处 理 研 究 数据 管理 生命 周期 各 个 环节 中 
的 数据 管理 问题 ( 见 图 1 ) , 现 阶段 围绕 着 研究 数据 的 
管理 ,数据 管理 平台 和 工具 出 现 “ 百花齐放 , 百 家 争 
鸣 ” 的 状态 , 且 朝 着 开放 融合、 标准 化 的 方向 发 展 ” 。 
然而 ,图 1 所 示 目 前 主流 的 数据 管理 平台 工具 多 是 侧 
重 在 数据 的 创建 ,处理 .保存 和 访问 环节 ,针对 分 析 和 


概要 性 描述 的 正式 文件 , 它 包 括 了 项 目 进行 过 程 中 及 
项 目 完成 后 等 各 个 阶段 ”。 目 前 ,影响 最 大 、 使 用 最 
广泛 的 数据 管理 计划 工具 (Data Management Plan ， 
DMP) 主要 有 三 个 ,依次 为 DMPonline (https://dmpon- 
line. dcc. ac. uk ) 、DMPTool ( https://dmptool. org ) 和 
DMP Roadmap ( https://github. com/ DMPRoadmap ) , 且 
均 为 开源 软件 。 

(2) 实 验 室 电子 笔记 。 主 要 是 将 实验 数据 以 电子 
的 形式 记录 存储 ,并 提供 协作 模板、 数据 收集 与 分 析 
等 功能 ,以 提升 研究 流程 优化 和 过 程 记 录 。 美 国明 尼 
苏 达 大 学 图 书馆 曾 于 2017 年 开展 了 一 项 针对 美国 顶 
尖 研 究 大 学 实验 室 电 子 笔记 应 用 情况 的 专项 调查 , 结 
果 显 示 绝 大 多 数 实 验 室 电 子 笔记 的 价格 昂贵 , 且 已 有 
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一 ”图 1 数据 管理 平台 工具 及 其 在 典型 的 数据 
管理 生命 周期 中 的 分 布 示 意 


> 
C0 
畴 蜀 抽 开始 提供 实验 室 电 子 笔记 服务 ""。 目 前 ,可 供 
使 用 的 实验 室 电 子 笔 记 较 多 ,但 因 研究 的 差异 软件 , 没 
竹中 个 实验 室 电子 笔记 能 够 满足 所 有 研究 者 需求 ，-- 
旺 阁 见 的 实验 室 电 子 笔记 软件 有 LabArehives( 可 试 
用 分 为 专业 版 和 教学 版 ) .RSpace( 分 为 社区 版 和 企业 

(中 社区 版 可 免费 试用 ) .sciNote( 分 为 免费 版 .高 
级 量 业 版 和 高 级 企业 版 ,是 开源 软件 ) 等 。 

二 (3 ) 活动 数据 存储 平台 。 在 科学 研究 过 程 中 , 研 
完善 会 不 断 地 产生 数据 ,这 些 数据 通常 称 为 “活动 数 
据 5@ 数 据 的 安全 防范 (涉及 硬件 损害 .病毒 人 侵 、 误 删 
除 竹 ) 至 关 重要 。 随 着 云 计算 技术 成 熟 与 普及 ,针对 此 
类 考据 的 存储 ,除了 传统 的 多 重 备份 .异地 备份 外 ,也 
多 了 选择 , 渐 趋 "上 云 ”, 如 ; 选择 通用 的 公有 云 存储 
(Google Drive .百度 网 盘 等 ) .购买 商业 服务 搭建 校园 
云 存 储 以 及 利用 开源 软件 自 建 云 存 储 (针对 高 安全 等 


首位 有 1 100 个 , 别 除 国际 协会 /组 织 (249 个 ) 外 ,排名 
前 十 的 国家 拥有 2 762 个 ,中 国 仅 有 47 个 ,与 美国 等 排 
名 靠 前 国家 相 比 ,差距 显著 。 

(5) 持 久 标识 系统 。 是 指 为 数据 分 配 全 球 唯一 、 
持久 的 标识 符 , 以 便于 数据 资源 的 引用 、 识 别 、 定 位 和 
长 期 保存 。 目 前 ,在 数据 管理 平台 被 广 为 使 用 的 持久 
标识 符 方 案 主 要 有 三 种 , 即 : Handle (http://www. han- 
dle. net ) 、DOI ( http://www. doi. org ) 、ARK ( https:// 
n2t. net/e/ark_ids. html ) 。 

(6) 数 据 检 索 系 统 。 是 用 于 支撑 研究 者 找到 研究 
所 需 的 数据 资源 ,分 为 数据 集 检索 系统 ( 直接 对 数据 集 
本 喘 的 元 数据 检索 ) 和 数据 仓储 检索 系统 (侧重 对 数 
据 仓 储 的 元 数据 检索 ) 。 目 前 ,主流 常见 的 数据 集 检索 
系统 有 Data Citation Index (商用 ) 、DataCite Search 、 
Google Dataset Search , 数据 仓储 检索 系统 有 re3data、 
FAIRsharing。 

1.4 人 文 社 科 研究 数据 管理 平台 现状 

有 别 于 自然 科学 ,人 文 社 科 更 关注 人 文 社 会 现象 
及 其 规律 性 的 系统 认识 .具有 社会 意识 性 质 , 它 虽 数 据 
规模 小 ,但 蕴含 的 语义 内 容 丰 富 多 样 ,有 旦 具有 高 度 可 复 
用 特性 , 即 人 文 社 科 数 据 的 使 用 周期 较 长 ,同一 研究 方 
向 的 社 科 数据 可 以 被 多 个 研发 团队 复 用 ,数据 可 以 产 
生 持续 的 价值 。 然 而 相 较 于 自然 科学 领域 ,我 国人 文 
社会 研究 数据 无 论 是 原始 科研 数据 还 是 衍生 数据 ,大 
多 止 于 对 应 的 学 术 成 果 发 表 后 ,共享 与 深度 开发 利用 
的 环境 尚未 真正 形成 ,学 者 数据 共享 与 利用 积极 性 仍 
有 待 提 高 , 且 人 文 社 科 数 据 资源 建设 相对 滞后 且 多 由 
国家 重大 科研 项 目 驱动 ,并 因 面 临 着 "数据 服务 平台 功 
能 单一 检索 效率 低下 不 支持 机 器 读 取 和 原始 下 载 、 
系统 平台 整体 上 可 用 性 较 差 "等 现实 困境 ,而 难以 满足 


级 的 数据 要 求 ) 。 

(4) 存 档 数 据 管 理 平台 。 即 传统 意义 上 的 研究 数 
据 管理 平台 ,用 于 管理 那些 高 稳定 性 .重要 的 且 需 长 期 
保存 的 研究 数据 ,如 : 自 建 的 ICPSR ,开源 的 Dataverse、 
Dspace ,商业 的 Figshare 等 平台 。 目 前 ,已 建成 在 用 的 
存档 数据 管理 平台 非常 多 ,涉及 众多 学 科 领 域 ,同时 专 
门 出 版 数据 的 平台 业已 出 现 ,如 :自然 出 版 集团 推出 的 
Scientific Data(2014) 《全 球 变化 数据 学 报 (中 英文 )》 
编辑 部 推出 的 全 球 变 化 科学 研究 数据 出 版 系统 
(2014) 《图 书馆 杂志 》 编 辑 部 推出 的 数据 管理 平台 
(2017) ,等 等 。re3data. org 网 站 显示 ,截至 2021 年 1 
月 13 日 ,已 经 注册 的 平台 已 达 3 581 个 。 其 中 ,美国 居 


项 目 之 外 的 用 户 需要 ” 。 

随 着 当前 科学 研究 范式 朝 着 数据 驱动 方向 转型 ， 
以 人 文 社 科 为 代表 的 研究 数据 管理 平台 建设 受到 广泛 
关注 ,并 涌现 出 了 诸多 案例 ( 见 表 2)。 尽 管 我 国 的 相 
关 平 台 建设 虽 已 取得 较 大 成 就 ,但 人 文 社 科 领 域 正 处 
于 起 步 探 索 阶段 .数据 集 欠 规范 且 量 少 , 且 相 较 于 国 
外 ,普遍 存在 着 软件 开发 缺少 开源 理念 .平台 服务 功能 
不 全 面部 分 平台 缺乏 合作 建设 理念 等 问题 ” 。 而 近年 
来 出 现 的 "全国 高 校 数据 驱动 创新 研究 大 赛 ”” 慧 源 共 
享 "高 校 开 放 数据 创新 研究 大 赛 ””“ 大 师 杯 "数据 联赛 ” 
等 各 类 数据 竞赛 活动 , 虽 为 研究 数据 资源 的 二 次 开发 利 
用 提供 了 新 的 路 径 与 尝试 ,但 相关 平台 对 数据 分 析 的 支 
返 能 力 ( 算 力 .工具 包 等 ) , 仍 处 于 起 步 阶段 。 
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表 2 几 种 典型 的 人 文 社 科研 究 数据 管理 平台 


平台 名 称 数据 集 个 数 主要 功能 及 官方 网 址 平台 软件 国 别 
英国 数据 档案 馆 UKDA 8 100 数据 集 的 创建 ,提交 查找、 下 载 ,咨询 服务 ,讨论 社区 Nesstar 英国 
https ://www. data-archive. ac. uk 


美国 密 欣 根 大 学 校 际 政治 和 社 ”15 600 + ”数据 集 的 创建 提交 、 查 找 
会 科学 人 研究 联盟 ICPSR https ://www. icpsr. umich. 
美国 哈佛 大 学 - 麻 省 理工 学 院 ”106 870 + ”数据 集 的 创建 提交 查找 
数据 中 心 HMDC 和 托管 服务 

https :// dataverse. harvard. e 
北大 开放 研究 数据 平台 300 + 数据 集 的 创建 提交 、 查 找 


https ://opendata. pku. edu. 
复旦 社会 科学 共享 数据 平台 770+ 数据 集 的 创建 提交 、 查 找 、 下 载 ,数据 分 类 统计 Dataverse 中 国 


http ://dvn. fudan. edu. cn 


人 大 中 国学 术 调 查 数据 资料 库 800 数据 集 的 创建 ,提交 、 查 找 下载 ,数据 分 析 报 告 分 享 自主 研发 中 国 


http://www. ensda. org 
注 :数据 集 个 数 的 统计 日 期 为 2021 年 1 月 13 日 ,未 区 分 学 科 
二 需要 说 明 的 是 , 现 有 的 研究 数据 管理 平台 多 是 将 数 
据 疯 作 一 类 信息 资源 开展 建设 ,虽然 在 顶层 设计 时 考虑 了 
总 网 9 分 析 ,挖掘 与 利用 ,但 具体 应 用 时 重心 不 在 于 此 。 
尘 朋 ,数据 资源 的 价值 日 益 重 要 、 二 次 开发 利用 需求 日 起 
强 双 ,这 需要 对 现 有 的 研究 数据 管理 平台 进行 升级 改造 。 


< 
2 号 人 文 社 科 研究 数据 管理 平台 设计 
CN 当前 我 国有 关 人 文 社 科 研究 数据 管理 平台 的 建 
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EU 


\ 下 载 ,数据 分 析 ,咨询 服务 ,新 闻 事 件 发 布 ,讨论 社区 自主 研发 美国 


edu/icpsrweb 
\ 下 载 ,在 线 数 据 统 计 分 析 , 支 持 研究 计算 ,桌面 服务 。 Dataverse 美国 


\ 下 载 ,在 线 数 据 统计 分 析 Dataverse 中 国 


设 , 多 是 由 高 校 主导 建设 ,在 数据 内 容 上 各 具 特 色 但 
从 规范 .平台 功能 上 二 次 开发 利用 不 足 。 本 文 则 聚 
焦 数 据 资源 的 二 次 开发 利用 ,遵循 “ 建 好 、 管 好 、 用 
好 ”建设 思路 ,在 兼顾 主流 数据 管理 平台 基础 功能 饶 
基础 上 ,围绕 数据 资源 的 多 途径 采集 与 规范 管理 、 自 
助 分 析 与 开发 利用 ,形成 特色 建设 方案 ,如 图 2 所 示 : 


数据 开发 利用 


: 数据 评价 与 学 术 促 进 


V 


chinaX 


多 源 异 构 数据 


学 者 自 藏 数据 专题 数据 库 


多 样 采集 策略 
| 文件 附件 上 传 JDBC、ODBC 接 口 等 


EEC 


基础 通用 功能 


2 面向 全 生命 周期 的 人 文 社 科研 究 数据 管理 平台 基础 框架 


在 以 上 框架 指导 下 ,人 文 社 科 研究 数据 管理 平台 
建设 应 注重 在 以 下 三 个 方向 发 力 : 
(1) 开 放 互 联 的 数据 共享 机 制 。 重 视 数 据 管理 平 


台 的 数据 共享 能 力 与 安全 保障 ,并 在 遵守 相关 法 律 法 
规 ,满足 数据 隐私 包含 相关 条 款 下 ,实现 数据 资源 的 科 
学 顺畅 流动 和 有 效 利用 。 因 此 ,平台 建设 过 程 中 ,应 兼 


China%iv 合 作 
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顾 数据 接 人 (采集 交换 等 ) .规范 (元 数据 管理 .备份 
等 ) .利用 (聚合 .分 析 、 下 载 等 ) 等 在 不 同 场景 下 的 适 
用 性 ,以 保障 数据 资源 在 平台 内 外 部 的 科学 流动 ,同时 
考虑 引入 区 块 链 等 技术 完成 数据 的 确 权 与 版 权 保 护 ， 
引入 沙 箱 等 技术 保障 数据 "不 落地 ”的 开发 利用 。 

(2) 自助 分 析 的 软件 接 入 规范 。 重 视 数据 管理 平 

台 的 分 析 能 力 ,为 平台 赋 能 ,提升 平台 可 用 性 ,促使 平台 
“ 重 茂 "向 “ 藏 用 ”转变 。 因 此 ,在 常见 的 资源 统计 、 预 
览 等 功能 基础 上 ,平台 还 需 为 研究 人 员 解 决 平台 繁杂 过 
据 资源 的 拼接 利用 问题 ,进而 促进 研究 人 员 共享 研究 数 
据 。 为 保障 平台 的 分 析 弹 性 和 扩展 性 ,应 重点 解决 第 三 
方 分 析 软件 的 自由 接 入 问题 ,而 不 是 自 建 分 析 环 境 ,着 
重 关注 平台 的 数据 分 析 接口 规范 开发 ,形成 软件 工具 的 
形 族 互联 机 制 ,满足 研究 人 员 多 样 化 的 分 析 需 要 。 

安 (3 ) 数 据 资源 的 开发 利用 模式 。 重 视 平台 数据 次 
源 的 二 次 开发 利用 活动 ,在 不 违反 相关 法 律 法 规 的 前 
提 区 ,开展 系列 增殖 服务 ( 如 研究 数据 的 追踪 与 验证 、 
聚 驹 挖掘、 再 利用 等 ) ,发 挥 研究 数据 资源 的 重用 价 
储 中 结合 数据 利用 性 质 的 过 异 ,平台 建设 应 关注 对 数 
入 评 价 与 学 术 促进 ,数据 出 版 等 活动 的 支撑 作用 ,应 


重 : 


其 从 面向 主题 .多 源 潜在 关联 数据 的 聚合 能 力 ,潜在 科 
印加 队 的 控 据 能 力 ,研究 数据 追 中 与 学 术 诚 信 的 识别 
能 刘 , 优 质 专题 数据 集 ( 数据 质量 ,利用 率 等 ) 的 洞察 
2K 数据 采集 与 元 数据 管理 
性 解决 数据 采集 的 多 样 化 和 元 数据 描述 规范 问题 ， 
平 褒 应 能 够 满足 研究 人 员 自 藏 数据 ,专题 数据 库 、 公 共 
开山 数据 等 不 同 来 源 数据 的 采集 需求 ,以 适应 研究 数 
据 广泛 散在 分 布 的 特点 ,并 支持 对 数据 的 统一 描述 。 
(1) 数 据 多 样 化 采集 策略 。 研 究 数据 管理 平台 中 
数据 来 源 的 性 质 ,分 为 研究 人 员 提交 (专题 数据 ) . 平 
台 主 动 采集 (公共 开放 数据 /委托 加 工 数据 ) 两 种 方 
式 。 但 无 论 何 种 方式 ,得 到 的 数据 均 需 要 高 效 稳定 . 精 
准 无 误 地 采集 汇 信 平台 ,而 数据 本 身 除了 传统 经 典 的 
文件 附件 上 传 外 ,还 会 大 量 以 数据 库 . 网 页 等 形式 丰 
在 , 且 此 类 数据 通常 是 海量 的 .可 变 的 。 为 此 ,平台 应 
革新 采集 策略 ,设计 JDBCZODBC 接口 . 疏 虫 /协议 采 
集 .API 调用 等 ,以 适应 这 一 现状 ,同时 兼顾 数据 采集 
的 数量 与 频次 数据 呈现 方式 (统计 图 表 、 数 据 列表 
等 ) , 目 具有 和 良好 的 用 户 体验 。 
(2 ) 元 数据 描述 规范 。 针 对 研究 数据 特点 ,建立 
完整 的 元 数据 描述 规范 ,实现 对 研究 数据 的 标准 化 描 
述 (如 基本 属性 .特色 属性 .价值 属性 等 三 大 属性 , 见 图 


3) ,包括 了 字段 描述 规范 系统 和 元 数据 字段 映射 。 字 
段 描 述 规范 系统 规定 了 平台 数据 发 布 的 字段 描述 规 
则 ,对 数据 发 布 者 起 到 指导 作用 ,以 提高 平台 其 他 用 户 
对 数据 的 理解 度 ,提升 数据 的 共享 能 力 。 

价值 属性 

描述 研究 数据 影响 的 信息 ( 使 用 频次 与 广度 、 引 证 情况 等 ) 


全 


1 


全 


基本 属性 


描述 研究 数据 的 基本 题 录 信 息 
(作者 、 名 称 、 摘 要 、 主 题 等 ) 


全 


特色 属性 
描述 研究 数据 特有 的 信息 
( 基金 资助 、 研 究 成 果 等 ) 


图 3 研究 数据 的 标准 化 描述 示意 


2.2 ”数据 共享 及 其 版 权 保护 

解决 研究 数据 的 科学 管理 与 共享 问题 ,主要 围绕 
研究 数据 的 数据 题 录 ,数据 文件 两 个 方面 来 展开 ,由 在 
促进 数据 在 平台 内 外 部 的 有 机 流动 。 

(1) 数 据 题 录 的 管理 与 共享 。 数 据 题 录 摘 自 研究 
数据 中 的 元 数据 ,为 支撑 研究 数据 的 最 大 化 共享 传播 ， 
平台 应 支持 通过 RSS 订阅 一 键 分 享 .API 等 方式 将 其 
分 享 ,由 此 以 主动 方式 对 外 推送 、 提 升 数据 资源 曝光 
度 , 同 时 遵循 主流 常见 的 数据 互 操作 协议 (如 OAT- 
PMH 协议 .SRWAU 协议 .SDARTS 协议 等 ) ,满足 跨 平 
台 的 数据 资源 整合 与 共享 。 

(2) 数 据 文件 的 管理 与 共享 。 关 注 研 究 数据 本 
身 ,针对 多 源 异 构 的 各 类 型 数据 (.txt、.xlsx、.csv、sql 
等 ) ,不 应 仅 停留 在 数据 被 提交 到 平台 上 , 需 注 重 数据 
的 平台 化 应 用 ,设计 并 实现 一 套 融 合 多 类 型 文件 的 存 
储 机 制 ( 见 图 4) ,实现 数据 文件 在 内 容 级 上 的 深度 融 
合 , 由 此 为 数据 资源 的 二 次 开发 利用 、 面 向 主题 的 多 源 
数据 聚合 关联 等 ,奠定 基础 。 同 时 ,为 充分 保障 数据 隐 
私 等 ,针对 数据 文件 的 开发 利用 与 共享 活动 , 须 征 得 数 
据 所 有 者 的 同意 ,如 :在 数据 正式 发 布 前 ,提示 数据 所 
有 者 设置 相应 权限 ,而 当 数 据 文件 的 权限 被 设 定 为 “ 受 
限 ”, 在 后 续 的 开发 利用 与 共享 活动 中 如 涉及 该 数据 文 
件 时 ,平台 须 通 过 邮件 短信 等 方式 通知 到 数据 所 有 
者 ,以 获取 相关 授权 。 
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并 这 | ff 医 服务 平台 
数据 空间 

2 映射 服务 一 es 

存储 容器 数据 文件 


| | 


ee 
= 


图 4 一 种 面向 研究 数据 管理 的 融合 多 类 型 文件 的 存储 机 制 


盖 区 块 链 的 去 中 心 化 .开放 性 .自治 性 、 信 息 不 可 自 
改 物 、 匿 名 性 等 特点 ,在 人 文 社 科 数 据 共享 过 程 中 的 自 
a eh 


是 面向 所 有 公众 开放 、 其 数据 的 管理 不 受 任何 个 
前 组 织 的 控制 , 且 人 文 社 科 数 据 具有 可 持续 使 用 、 更 


+ 
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CO 
GN 
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图 5 
2.3 研究 数据 在 线 自助 分 析 


面向 研究 人 员 ,解决 平台 中 研究 数据 的 使 用 问题 ， 
助力 研究 人 员 深 入 内 部 观测 数据 详情 、 挖 掘 分 析 等 活 
动 ,主要 体现 在 兼容 主流 的 分 析 软 件 工具 上 。 

(1) 通 用 的 数据 探索 。 应 能 满足 研究 人 员 针 对 感 
兴趣 的 数据 文件 进行 浅 层 的 数据 概览 需要 , 以 更 为 直 
观 把 握 数据 的 形态 质量 ,内容 等 ,包括 但 不 限于 对 数 
据 文件 的 字段 描述 数据 实例 、 统 计 报 表 等 信息 。 其 
中 ,为 进一步 辅助 研究 与 观察 ,统计 报表 设计 建议 采用 
图 6 框架 展开 : 


新 速度 较 慢 等 特点 。 因 此 ,在 人 文 社 科 人 研究 数据 管理 
平台 建设 中 ,建议 采用 私有 链 或 联盟 链 进行 数据 确 权 
与 版 权 保 护 , 且 相 较 于 公有 链 ,节点 间 的 交易 成 本 低 ， 
如 图 5 所 示 : 


应 
(App) 


联盟 链 典 型 代表 Hyperledger Fabric 框架 的 节点 间 交 易 


ication) 


排序 服务 


(Ordering Service) 


> 


水 
2 


又 示意 


缺失 值 


关键 特征 


特色 信息 


6 统计 报表 设计 要 点 


(2) 专业 的 挖掘 分 析 。 平 台 分 析 工 具 的 丰富 性 ， 
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既 能 支持 研究 人 员 围 绕 感 兴趣 的 数据 文件 开展 专业 化 
的 挖掘 分 析 活动 , 亦 可 激发 研究 人 员 共 享 研 究 数据 . 增 
强 平台 活跃 度 。 图 6 在 数据 层面 解决 了 平台 内 多 源 数 
据 表达 问题 ,此 处 需要 解决 的 是 平台 内 数据 迁移 和 工 
具 接 人 问题 。 其 中 ,平台 内 数据 迁移 问题 是 指 在 挖掘 
分 析 活 动 时 平台 数据 是 否 要 流向 工具 ,关心 的 是 执行 


效率 , 即 数据 向 工具 流动 本 身 是 需要 时 耗 的 ,这 在 数据 
海量 情况 下 极为 重要 ;工具 接 入 方式 则 分 为 硬 接 入 和 
软 接 入 两 种 ,人 硬 接 入 是 与 平台 深度 集成 、 融 为 一 体 ,这 
不 涉及 数据 迁移 , 软 接 入 则 是 通过 API 调用 等 完成 ,多 
涉及 数据 迁移 但 可 支持 第 三 方 工具 自由 接 入 ,如 图 7 
所 示 : 


从 分 析 过 程 与 用 户 交互 
| 
未 通过 
在 线 分 析 数 据 oauth 2.0 js | 
| 请求 协议 请 求 账户 验证 > 一 通过 下 第 三 方 分 析 工具 
下 
| | 在 线 浏览 | 用 户 账号 
Ek 用 户 权限 
用 户 机 构 
| 数据 文件 平台 传递 


、 
ji 


未 通过 
1 


统一 认证 平台 登录 


.00658v1 


Da 

2 数据 资源 二 次 开发 利用 
CN 面向 管理 , 助 推 平台 中 研究 数据 的 二 次 开发 利用 
清 动 ,有 针对 性 地 开展 数据 增值 服务 ,平台 需要 为 这 些 


图 7 第 三 方 工具 接 入 平台 的 机 制 


3 ”人 文 社 科 研究 数据 管理 平台 关键 技术 
实现 


服务 活动 的 开展 提供 系列 技术 支撑 。 
:三 (1) 面向 主题 的 数据 聚合 。 主 要 依托 元 数据 描 
述 (数据 文件 中 数据 项 的 特征 等 ,对 来 源 于 不 同 项 目 或 
不 辕 研 究 人 员 的 数据 进行 标签 抽取 与 关联 主题 相似 
测 司 ,多维 聚合 , 意 在 克服 来 源 于 单一 数据 可 能 存在 的 
偏 鲍 。 平 台 虽 面向 单一 数据 文件 在 数据 层面 做 了 统一 
规范 ,但 面 对 研究 数据 本 身 的 繁杂 多 样 特 点 ,还 需 提 供 
支持 研究 人 员 进 行 多 源 数据 拼接 .关联 的 机 制 , 同 时 记 
录 人 为 的 数据 拼接 行为 并 利用 机 器 学 习 等 方法 ,不 断 
增强 平台 智能 的 数据 聚合 能 力 。 

(2) 数 据 挖掘 与 模式 发 现 。 主 要 包括 对 数据 的 使 
用 和 内 容 挖 掘 两 个 方面 , 即 : 人 数据 使 用 关注 研究 数 
据 自身 的 价值 和 利用 效率 ,类 似 于 论文 ,建立 计量 评价 
模型 (数据 完整 性 、 数 据 引 证 等 ) ,为 研究 人 员 寻 找 高 
价值 的 数据 资源 提供 支持 ;@@ 数 据 内 容 关注 来 自 不 同 
领域 数据 .多 个 数据 集 的 分 析 比较 及 其 知识 发 现 ,如 
基于 相似 数据 集 的 隐 性 研究 团队 识别 .基于 数据 质量 
(或 一 致 性 ) 的 学 术 诚信 识别 等 ,平台 应 为 上 述 活动 的 
开展 提供 支撑 。 


当前 ,已 涌现 出 如 Dataverse 、.Dspace 上 Prints .Fedo- 
ra、Nesstar 等 诸多 平台 原型 ,它们 大 多 以 数字 资产 系统 
为 原型 ,侧重 对 数字 资产 的 保存 和 管理 , 虽 对 数据 分 析 
和 可 视 化 功能 支持 较 弱 ,但 已 为 机 构 针 对 性 的 数据 管 
理 平台 建设 提供 了 较 完整 的 解决 方案 ,由 此 帮助 我 们 
摆脱 了 繁杂 重复 的 基础 通用 功能 开发 而 专注 于 对 数据 
资源 开发 利用 的 功能 开发 。 值 得 一 提 的 是 基于 开源 软 
件 ,二 次 开发 构建 数据 管理 平台 ,在 国内 外 高 校 中 也 是 
比较 普遍 。 

作者 以 Dspace 为 平台 原型 ,进行 个 性 化 设计 与 二 
次 开发 ,继而 完成 人 文 社 科 研究 数据 管理 平台 的 基础 
功能 开发 。 其 中 ,Dspace 软件 最 初 是 由 美国 麻 省 理工 
学 院 图 书馆 和 美国 惠普 公司 实验 室 合作 开发 并 于 
2002 年 10 月 投入 使 用 , 它 以 内 容 管理 发 布 为 目标 的 数 
字 资 源 存储 系统 ,可 实现 对 各 种 格式 数字 资源 的 收集 、 
存储 .索引 和 发 布 ,具有 完善 的 用 户 界 面 . 可 定制 性 强 、 
较 好 的 扩展 性 等 , 文 持 二 次 开发 ,目前 已 经 被 全 球 超过 
300 家 的 机 构 在 线 使 用 ,拥有 众多 用 户 和 成 功 案例 。 
文中 开发 的 平台 (由 姚 占 雷 负责 平台 的 具体 设计 、 谷 俊 
负责 平台 的 具体 开发 实现 ,访问 地 址 http://222. 204. 
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246.126/rdmp/ ) 是 基于 Dspace 4.9 进行 二 次 开发 ,开发 
环境 为 springboot 2 开发 框架 openjdk 1.8 .postgresql 9.6、 
solr 7.3 , 且 在 开发 过 程 中 对 基本 的 数据 项 .参数 进行 


了 重 构 ,以 满足 前 端 页 面 内 容 自 定义 、 数据 需求 管理 
( 见 图 8a) .数据 关联 研究 成 果 ( 见 图 8b) .数据 申请 授 
权 管 理 ( 见 图 9) 等 。 


角 首页 ， 个 人 中 心 。 需求 管理 
数据 空间 管理 需求 管理 
姓名 研究 方向 工作 单位 办 理 状态 提交 时 间 操作 
数据 集合 管理 
test test test 已 拒绝 2020-01-07 查看 详情 。 备注 
数据 条目 管理 
彭 因 形 公共 政策 “* 科 技 情 抠 研 究 所 竺 办理 2020-01-07 查看 详情 
申请 授权 管理 
1 
通知 列表 管理 
需求 列表 管理 
站 点 设置 
基本 信息 
修改 密码 
守 = a. 数据 管理 平台 后 台 功 能 示意 
> 北美 新 闻 记 者 招聘 信息 数据 
CO 所 网 数 据 裤 间 /数据 集合 : 科技 人 才 / 求 有 招聘 
(Ce) 基础 信息 
© 标题 北美 新 闻 记 者 招聘 信息 数据 
© 作者 ThunderYao 
图 
< 十 学 科 图 书馆 、 情 报 与 档案 管理 /情报 学 
© 简介 当前 数据 时 间 范 围 为 2016.10-2019.12， 数 据 记录 数 为 23,392 条 ， 本 数据 条 目 不 定 期 更 新 
CD 发 布 时 间 2020-01-10 00:00:00 
ol 原始 出 处 http://www.journalismjobs.com 
[ed | 类 型 数据 集 
加 图 展开 
之 数据 文件 
>< 文件 名 称 文件 来 源 操作 
3 北 宪 新 闻 记 者 招聘 信息 数据 附件 上 传 咎 无 
lm 相关 成 果 
©O 成 果 名 称 出 版 刊物 发 表 时 间 操作 
b. 数据 管理 平台 前 台数 据 浏览 示意 
8 基于 Dspace 二 次 开发 后 的 数据 管理 平台 运行 图 ( 部 分 ) 
和 WN 首页 /个 人 中 心 ， 申请 授权 管理 
数据 空间 管理 申请 /审批 管理 
我 的 申请 。 我 的 授权 
数据 集合 管理 
申请 人 所 属 条 目 申请 文件 申请 时 间 申请 状态 详情 
数据 条 目 管理 
yao thund 。 北美 新 闻 记 者 招 届 信 。 。 北美 新 闻 记 者 招聘 信 
a i 四 数据 各 数据 Xlsx 2019-06-12 待 审核 查看 详情 
i 北美 新 闻 记 者 招聘 信 北美 新 闻 记 者 招聘 信 
ee 俊 谷 息 数据 息 数据 xlsx 2019-06-22 已 通过 查看 详情 
需求 列表 管理 pe 
站 点 设置 
基本 信息 
9 数据 管理 平台 后 台 申 请 授权 管理 示意 


32 


Chinaxjv 合 作 期 书 
姚 占 雷 ， 谷 俊 ， 许 伪 . 全 生命 周期 视 域 下 人 文 社 科研 究 数据 管理 平台 的 设计 与 实现 [J]. 图 # 情 闪 昌 PagvB 人 其 乔 


3T: 


3.1 开放 互联 的 数据 共享 

数据 共享 包括 了 平台 自身 与 其 他 数据 平台 的 数据 
共享 ,以 及 各 个 平台 上 不 同 用 户 之 间 的 数据 文件 共享 。 

平台 自身 与 其 他 数据 平台 的 数据 共享 ,多 是 针对 
数据 的 题 录 信 息 交 换 , 属 于 平台 级 应 用 ,实现 研究 数据 
的 最 大 化 共享 传播 。 平 台 采 用 OAI-PMH 元 数据 收割 协 
议 进行 两 个 独立 平台 之 间 的 数据 共享 ,前 提 是 两 个 平台 
之 间 已 经 建立 信任 关系 ,同时 平台 支持 OAI-PMH 协议 ， 
允许 其 他 数据 平台 进行 元 数据 收割 ,如 图 10 所 示 : 


名 称 : | 


描述 : 


下 一 收 地 址 :172.30.8.242 


ee 收割 频次 : | 每 天 0 时 0 分 
收割 协议 :| OALPMH | 
LO 
(© ss | 
© 
9 
| 


10 平台 元 数据 收割 参数 配置 


加 D 当 数据 被 收割 到 其 他 数据 平台 上 后 , 即 可 在 该 平台 
实现 用 户 间 的 数据 共享 。 而 为 了 保障 数据 提供 者 的 
合 深 权 限 ,防止 数据 被 用 户 滥用 ,平台 在 用 户 之 间 共 享 
烙 少 时 ,需要 数据 提供 者 对 数据 的 使 用 进行 授权 ,从 而 
保障 数据 权 属 。 目 前 ,平台 采用 邮件 和 系统 两 种 方式 进 
行 报 权 , 当 用 户 对 数据 有 使 用 和 下 载 需 求 时 ,系统 会 自 
动 辐 提供 者 的 邮箱 发 送 一 封 请 求 授权 的 邮件 ,同时 在 数 
据 提供 者 的 系统 管理 后 台 同步 , 当 且 仅 当 数据 提供 者 进 
行 了 数据 授权 ,使 用 者 才 拥 有 数据 使 用 的 权限 , 见 图 9。 
同时 ,平台 还 对 Hyperledger Fabric 所 支持 的 数据 
库 进 行 了 改进 ,用 关系 型 数据 库 的 存储 方式 替代 传统 
超级 账本 的 键 值 对 数据 存储 方式 ( 见 图 11) ,以 提升 链 
上 数据 的 查询 处 理 能 力 , 并 据 此 在 平台 上 预 留 了 区 块 
链 基 础 设施 的 接口 , 当 平台 需要 接 入 区 块 链 基础 设施 
时 ,可 以 在 保障 平台 持续 稳定 运行 的 基础 上 ,与 区 块 链 
基础 设施 无 锋 对 接 。 
3.2 ”自助 分 析 的 数据 探索 
为 进一步 增强 现 有 数据 管理 平台 中 的 数据 分 析 与 
可 视 化 功能 .支撑 研究 人 员 数 据 探索 活动 ,平台 借鉴 商 
业 报 表 思 路 ,在 统一 的 分 析 视窗 ( 见 图 12) 下 提供 多 
维 .动态 交互 的 报表 分 析 可 视 化 功能 ,支持 对 可 结构 化 
的 数据 文件 进行 灵活 自由 的 个 性 化 数据 探索 。 其 中 ， 


fp :=blockIdxInfo.flp /初始 化 ， 创 建 一 个 区 块 处 理 对 象 flp 。 

txOffsets :=blockIdxInfo.txOffsets /初始 化 ， 创 建 一 个 交易 索引 信息 对 象 txOffsets。 

txsfltr :=ledgerUtil.TxValidationFlags(blockIdxInfo,metadata.Metadata[common,BlockM etadataInde 

x_TRANSACTIONS_FILTER] /对 数据 的 有 效 性 进行 验证 。 

batch :=DB() // 初始 化 ， 创 建 关 系 型 数据 库 对 象 batch。 

flp :=flp json0 /将 order 服务 器 传递 过 来 的 JSON 格式 数据 转换 为 fp 对 象 ， 用 于 数据 库存 储 。 

让 ,ok :=index.indexltemsM ap[blkstorage.IndexableAttrBlockHash]; ok { 
batch.Insert(construt BlockHashKey (blockldxInfo.blockHash), fip) 

MM/ 调 用 Insert 方法 ， 将 fp 对 象 中 的 结果 映射 为 数据 库 字 段 结构 ， 并 写 入 数据 库 。 


图 11 链 上 数据 结构 化 改造 的 核心 代码 


为 赋予 报表 分 析 的 普 适 性 , 当前 平台 主要 针对 数据 文 
件 的 数据 项 及 取 值 进行 通用 挖掘 分 析 , 主要 包括 两 类 
功能 :数据 完整 性 数据 缺失 值 与 极 值 数据 项 分 组 、 
时 间 序 列 等 库 表 结构 类 通用 分 析 ;@) 关 键 词 云 、 实 体 抽 
取 等 科研 活动 中 基础 的 文本 分 析 。 由 此 可 见 ,此 类 功 
能 在 增强 平台 可 视 化 分 析 能 力 的 基础 上 ,还 面向 研究 
人 员 提 供 简洁 易 用 .一 站 式 的 数据 分 析 服 务 ,继而 提升 
研究 人 员 使 用 平台 意愿 ,盘活 与 扩充 数据 资源 。 

通用 报表 分 析 是 平台 的 一 个 智能 分 析 模块 ,该 模 
块 可 自动 扫描 并 识别 数据 文件 中 相关 字段 及 内 容 , 并 
根据 后 台 定 义 的 数据 分 析 模 块 , 自动 生成 相应 的 可 视 
化 图 表 。 其 中 ,数据 总 量 描述 该 数据 文件 中 所 包含 的 
记录 总 量 ,如 果 发 现 该 字段 中 的 数据 记录 不 完整 , 则 提 
取 该 字段 为 缺失 字段 ,此 外 还 对 所 有 字段 数据 类 型 的 
值 进行 对 比 , 找 出 其 中 最 大 值 和 最 小 值 字 段 ,并 标记 为 
极 值 字段 。 同 时 在 进行 字段 扫描 过 程 ,系统 利用 正则 
表达 式 进行 字段 类 型 的 判定 ,如 果 该 字段 不 符合 数字 
字段 或 时 间 字 段 的 匹配 标准 , 则 认定 该 字段 为 文本 字 
段 ,并 对 于 文本 类 型 的 字段 ,系统 使 用 “结巴 分 词 ” 工 
具 进 行文 本 的 分 词 处 理 , 并 结合 TextRank 算法 对 字段 
内 容 进行 标签 提取 ,最 终 绘 制 出 该 数据 文件 的 主题 云 
,便于 用 户 深度 挖掘 数据 集 的 主题 。 

同时 ,平台 已 与 Transwarp 大 数据 平台 深度 集成 
(集成 的 代码 示意 , 见 图 13 ) ,借助 第 三 方 平台 丰富 的 
分 析 工 具 ,满足 学 者 对 数据 资源 开展 更 为 专业 的 分 析 
挖掘 活动 的 需要 , 见 图 14。 
3.3 ”开发 利用 的 数据 增值 

人 文 社 科 数 据 具 有 高 度 可 复 用 性 .持续 产生 价值 
的 特点 ,同一 研究 方向 的 社 科 数据 可 以 被 多 个 研发 团 
队 复 用 ,这 使 得 多 源 数据 资源 拼接 、 聚 合 的 价值 凸显 ， 
平台 建立 起 多 源 数 据 聚 合 的 集成 平台 ,重点 面向 平台 
内 部 结构 化 的 数据 资源 , 读 取 竺 聚合 的 数据 资源 特征 
项 ,为 学 者 提供 一 套 自 由 抽取 与 组 合 内容 灵 活 编辑 的 
在 线 工 具 ( 见 图 15)。 同 时 ,还 支持 接 入 学 者 的 自 有 数 
据 (excel sql 等 文件 格式 ) 。 
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北美 新 闻 记者 招聘 信息 数据 -数据 分 析 视窗 


返回 前 页 数据 预览 ”| 报表 分 析 | 。 专题 分 析 
数据 描述 主题 聚合 基础 分 析 
gg ee 
= ot 8positioNnbusiness %% 
数据 总 量 : 23,392 “Danagement re. % 
lirector editorss 5 a 
i wr CON 
缺失 值 字段 : JobDetail D2 sete dcOWNS |ait 一 5 三 
字 了 Sabr s2 力 olmelalrSis， 
极 值 字段 : Salary EaoS Key 55 大 style 和 
最 大 值 : $60,000 55 Se 办 7 >” 
最 小 值 : $25,000 ktaff SS 
flexible x hours solutiOns Sin \ online 


可 视 化 


Full-time JobStatus 


Part-t 
= i Intern: 706 (3.02%) 


BD Intem 

OD NULL 

OD Freelance 
OB Temporary 
OD Unpaid 

CB Telecommute 


12 通用 报表 分 析 示 意 


private static String driverName = "io.transwarp .jdbc.InceptorDriver"; 
public static void main(String[] args) throws SQLException { 
ty { 
Class.forName(driverName); 
} catch (ClassNotFoundException e) { 
e.printStack Trace(); 
System.exit(1); 
} 


Connection conn = 


clairS 记 | 
2 


DriverM anager getConnection("jdbe:hive://172.30.8.230:31326/;guardianToken=Bvp Bq6HQT6aVbDLjewreUcuz 


W5HR.TDH"); 
System.out.printIn("ok"); 
Statement statement = conn.createStatement(); 
is_user = t.get_usr(username,userpwd);// 账 号 验证 


if (lis_user){ 


System.exit(1); /如 果 在 数据 系统 中 账号 密码 不 匹配 ， 则 退出 连接 。 


} 
ResultSet recordSet = statement.executeQuery ("show databases ); 


ResultSetM etaData resultM eta = recordSet.getM etaData(); 
int size = resultM eta.getColumnCount(); 
while (rs.next()) { 
StringBuffer value = new StringBuffer(); 
for (int i= 0;i< size; it+) { 
value.append(rs.getString(i+ 1)).append(™\t"); 
} 
System.out.printIn(value.toString()); 
} 
recordSet.close(); 
statement.close(); 


conn.close(); 


13 接 入 Transwarp 大 数据 平台 的 核心 代码 


34 


i a iv 会 作 基 二 | 
计 者 直 - 订 玉 二 遇 册 岳 训 人 是 放 和 是 丰 帮 本 汪汪 下 估 二 帮 训 大 疝 站 下 十 末尾 了 有 二 全 天 加 


37: 


北美 新 闻 记者 招聘 信息 数据 -数据 分 析 视 窗 


返回 前 页 。 ”数据 预先 。 报表 分 析 。 | 专题 分 析 
D> 
€ 口 
TRANSWARP 首页 仪表 板 工作 胡 SQLLab HDFS 
plioT 
蛙 添 加 HDFS 数据 集 
基本 信息 配置 列 属性 度 最 
[Co 北美 新 闻 记者 招聘 信息 到 型 
当前 效 据 时 间 厚 画 为 2016.10.2019.12， 数 泌 记 录 歼 为 23392 条 ， 玉 赦 理 科目 下 定 恕 更 新 


tmp 


* inceptor 连 瑞 : default_inceptor 


202304.00658v1 


14 接 入 第 三 方 分 析 平 台 示 意 


多 源 数据 聚合 平台 


oes 
加 资源 名 己 蜂 高 游记 。 电导 出 出 行 天 数 。 ”发 表 时 间 和 谁 。 ”人均 费 用 正文 来 源 

口 标题 口 2020-02-07 18:16 童年 中 的 马蜂 窜 游 记 

出 行 天 数 2020-02-07 11:20 一 、 因 果 定 律 世 界 上 没有 一 件 事 是 偶然 发 生 的 ，# 马 蜂 寅 游记 
2 2 天 2020-2-7 个 “1000 元 “ 滴 漳 、 滴 泣 ”， 闲 钟 响 了 ， 伸 手 关闭 钟 后 ， 我 : 扒 程 游记 

i 有 天 2020-02-06 19:34 武康 路 位 于 马蜂 窜 游 记 

人 均 费 有 口 ”3 天 2020-02-05 16:55 1500RMB 2019.3.30 我 们 去 马蜂 帘 游记 

正文 全 2020-02-03 17:05 3000RMB 深秋 已 至 ， 可 马蜂 寅 游记 

口 作者 9 天 2020-02-02 23:03 2 写 在 开头 的 废话 ~ 马蜂 窜 游 记 

回 资源 名 | 携程 游记 口 3 天 2020-01-03 22:20 1000RMB ”” 写 在 前 面 马蜂 写 游 记 

口 标题 口 2019-12-29 18:20 2019/04/29-2019/05/03 当 马蜂 窜 游 记 
> 口 出 行 时 间 口 6 天 2019-12-22 亲子 8000 元 新 加 坡 萌 版 的 道路 一 直 在 和 我 们 捉迷藏 。 明 明 在 济 携程 游记 
< 发 表 时 间 口 hi 天 2019-10-19 亲子 太 旅 游 地 点 :张家港 永 联 小 镇 永 联 小 镇 位 于 永 钢 扒 程 游记 
>< 和 淮 口 3 天 2019-9-25 一 个 人 写 在 前 面 的 话 携程 游记 

站 三 于 口 |5 天 2019-09-17 11:19 2900RMB ”成 都 到 南京 到 上 海 ， 河 海 大 学 至 外 滩 至 迪士尼 马 妊 寅 游记 
5G S 口 ”1 天 |2019-6-17 和 朋友 余秋雨 是 上 海 的 ， 上 海 的 古迹 没有 多 少 好 看 的 ， 携程 游记 
加 人 均 费 用 口 6 天 2019-6-2 和 朋友 “3000 元 ”向 北 。 今 年 的 页 天 里 ， 我 仿佛 做 了 一 个 很 长 的 梦 。 携程 游记 
i 天 数 口 3 天 2019-5-30 一 个 人 1500 元 上 海 ， 是 我 非常 喜欢 的 城市 ! 从 我 的 第 一 份 工作 了 携程 游记 
口 玩法 日 | 天 2019-5-21 革 帮 500 元 心 驰 “ 同 里 ” 心 同 理 “ 琴 牧 杭 舍 ” 情 难 舍 一 一 “携程 游记 
i 正文 口 7 天 2019-5-8 和 朋友 ”6000 元 我 们 真 的 要 过 了 很 久 很 久 ， 才 能 够 明白 ， 自 己 会 3 携程 游记 

GO 口 作者 口 5 天 2019-05-05 15:38 9000RMB 马 蝶 窜 游记 
口 5 天 2019-4-24 一 个 人 5000 元 生命 里 总 有 那么 一 个 人 惊 抑 了 时 光 令 人 念念不忘 携 程 游记 

上 一 页 当前 页 1/2,000 下 一 页 
15 多 源 数据 聚合 平台 示意 


有 别 于 当前 主流 的 研究 数据 管理 平台 架构 侧重 对 
数据 的 科学 管理 ,本 文 主要 拓展 与 丰富 了 人 文 社 科研 
究 数 据 管 理 平台 的 功能 与 定位 ,能 够 进一步 充实 或 完 
善 相关 研究 与 工作 实践 , 旨 在 促进 人 文 社 科研 究 研究 
数据 的 共享 与 重用 活动 。 

具体 而 言 ,本 文 主要 围绕 数据 资源 的 多 途径 采集 
与 规范 、 自 助 分 析 与 开发 利用 ,提出 了 面向 全 生命 周期 
的 人 文 社 科 研究 数据 管理 平台 基础 框架 , 据 此 对 数据 
管理 平台 的 功能 有 针对 性 地 进行 了 优化 重组 ,注重 对 


[ly 


数据 资源 的 二 次 开发 利用 ,如 :自助 报表 的 分 析 视 窗 ， 
满足 人 文 社 科 学 者 科研 活动 中 常见 的 文本 计算 与 统计 
分 析 需 要 ;多 源 数据 拼接 功能 ,满足 人 文 社 科 学 者 对 同 
一 主题 不 同 数据 集 的 数据 资源 聚合 ,等 等 。 

而 针对 高 价值 的 数据 资源 ,在 取得 数据 所 有 者 授 
权 的 前 提 下 ,平台 亦 可 以 开展 系列 专项 增值 活动 ,如 按 
照 主题 学科、 事件 等 形式 加 工 汇编 成 特色 专题 数据 进 
行 出 版 发 行 , 并 充分 利用 数据 在 平台 上 的 使 用 与 评价 
情况 ,为 数据 出 版 等 工作 提供 更 为 丰富 的 文 撑 ; 结 合 3 
据 资源 自身 的 研究 属性 ,平台 富 含 的 在 线 工 具 等 ,可 为 
学 科 领 域内 科研 新 人 搭建 交流 平台 ,助力 其 重 现 经 典 
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研究 活动 了解 研究 范式 ,以 快速 把 握 相关 研究 路 径 。 

这 些 新 型 尝试 ,将 为 进一步 推动 研究 数据 资源 的 开发 

利用 提供 新 范式 ,新 路 径 , 并 成 为 平台 后 续 优化 升级 所 

关注 的 重点 。 
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Design and Implementation of Management Platform for Humanities and Social Sciences 
Research Data in the Perspective of Full Life Cycle 
Yao Zhanlei Gu jun Xu Xin™” 
! Faculty of Economics and Management ，East China Normal University, Shanghai 200062 
“School of Humanities ，Shanghai Normal University ，Shanghai 200233 
? Social Survey and Data Center, East China Normal University, Shanghai 200241 

Abstract: | Purpose/significance | Policies that giving clear guidance and regulations on the management, sha- 
ring and utilization of scientific data have been issued by China in recent years. However, architectures of current da- 
ta management platforms focus on the scientificity of data management, not the efficiency of data sharing and utiliza- 
tion. Based on systematically expanding the data management functions of existing platforms, this study focused on 
solving the problems of sharing and using scientific data. | Method/ process | Based on the investigation and litera- 
Ee review, this study first clarified the necessity and predicament of the construction of a management platform for 
Damanities and social sciences research data. Second, from the perspective of full life cycle, the study systematically 
和 ea the core functions and explained the characteristics of the platform. Then, the study described the details of 
(BR realization of key functions by a real case. | Result/conclusion | Aimed at open and interconnection ，develop- 
nt and utilization, and self-service analytics, a basic framework of research data management for full life cycle was 
ablished. Based on the framework, a management platform for humanities and social sciences research data was 

(GSSiualized. The platform can be a characteristic case and a reference for related practices and studies. 
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EN Keywords: data management humanities and social sciences development and utilization platform construction 
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